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摘 要 


基于 游戏 的 心理 测评 是 指 通 过 游戏 或 游戏 化 的 活动 ， 对 一 个 人 的 能 力 、 人 格 等 心理 特性 和 行为 进行 


量化 测评 。 早 期 主要 用 于 评估 教育 和 训练 的 效果 ， 而 后 发 展 成 对 心理 特性 的 测评 。 基 于 游戏 的 测评 作为 一 项 
新 技术 在 测评 形式 、 测 评 过 程 和 测评 结果 上 均 具 有 优势 。 目 前 基于 游戏 的 测评 形成 了 以 证 据 中 心 设计 为 基础 
的 范式 ， 用 于 指导 建立 测评 工具 和 开展 实证 研究 ,并 在 测评 个 体 认 知 能 力 和 非 认 知 能 力 方面 均 有 实践 .然而 当 
前 该 技术 仍 处 于 起 步 阶段 ， 未 来 研究 可 以 在 任务 设计 、 结 果 分 析 及 实践 应 用 方面 进一步 拓展 深入 。 

关键 词 ”基于 游戏 的 测评 ， 证 据 中 心 设计 ， 认 知 能 力 ， 非 认 知 能 
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游戏 已 经 成 为 人 类 社会 行为 的 重要 组 成 部 
分 。 根 据 中 国 互联 网 络 信息 中 心 发 布 的 《中 国 互 
联网 络 发 展 状况 统计 报告 (2019)》) 显 示 , 截止 2019 
年 6 H, 中 国 网 络 游戏 网 民 规 模 达 到 4.94 亿 ， 游 
戏 用 户主 要 集中 在 10 至 39 岁 。 以 往 研究 者 将 研 
究 重 点 放 在 游戏 对 个 体 心 理 及 行为 的 影响 上 。 然 
而 随 着 大 数据 时 代 的 到 来 , 由 数据 带 来 的 革命 在 
各 个 领域 悄然 兴起 ， 这 为 心理 学 研究 的 开展 提供 
了 新 思路 。 相 比 于 传统 的 行为 测量 方式 , 在 大 数 
据 时 代 人 们 的 行为 一 定 程度 上 可 以 通过 数据 来 衡 
量 (Schoedel et al., 2018)， 因 此 近年 来 ， 如 何 使 用 
游戏 得 到 丰富 的 数据 并 预测 玩家 的 知识 、 技 能 和 
特质 的 问题 受到 越 来 越 多 关注 。 

商业 领域 已 初步 尝试 将 游戏 元 素 与 心理 测验 
结合 起 来 应 用 于 企业 招聘 ( 杨 振 芳 ， 孙 贻 文 ， 2015)， 
开发 了 一 系列 游戏 系统 。Arcitc Shore 公司 作为 
游戏 化 招聘 的 先行 者 ， 率 先 使 用 行为 任务 来 判断 
应 聘 者 的 人 格 特质 。 普 华 永 道 与 其 联合 建立 了 
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Career Unlocked 的 游戏 化 招聘 系统 并 已 投入 使 用 ， 
其 中 涉及 充气 球 存 钱 、 情 绪 判 断 等 多 项 游戏 任务 。 
德勤 也 打造 了 自己 的 测评 手 游 Firely Freedom， 通 
过 多 个 游戏 关卡 对 应 聘 者 的 勤奋 、 完美 主义 倾向 、 
风险 管理 与 规避 能 力 等 特质 进行 评价 。 

基于 游戏 的 心理 测评 拓展 了 心理 测量 的 手段 ， 
与 机 器 学 习 方法 的 进一步 结合 使 其 在 大 数据 时 代 
拥有 巨大 的 应 用 潜力 , 但 是 作为 一 个 新 兴 交 又 研 
究 领 域 , 基于 游戏 的 测评 处 于 “实践 先行 ,理论 湿 
后 ”的 阶段 。 目前 基于 游戏 的 测评 技术 未 得 到 国内 
学 者 们 的 广泛 关注 ， 因 此 本 文 主要 在 国外 已 有 研 
究 的 基础 上 , 结合 少量 的 国内 研究， 对 基于 游戏 
的 测评 这 一 项 新 技术 进行 介绍 , 综述 其 概念 、 评 
估 范 式 和 实践 应 用 ,并 提出 未 来 研究 方向 , 希望 
为 后 续 研究 提供 参考 。 


2 概念 评述 


21 概念 发 展 与 界定 

游戏 本 身 的 含义 ， 是 指 人 们 参与 交互 的 一 种 
娱乐 方式 ， 娱 乐 是 其 具有 的 本 质 特 征 (吴宇 ， 
2015)。21 世纪 以 来 游戏 的 巨大 潜力 受到 学 者 们 
的 关注 , 它 的 使 用 目的 不 再 局 限于 娱乐 ， 严肃 游 
戏 (Serious game) 的 概念 在 国内 外 兴起 。 严 肃 游 戏 
是 指 通过 游戏 的 娱乐 形式 达到 教育 、 训 练 和 治疗 
等 严肃 的 目的 (Gamberini et al., 2009)。 基 于 游戏 
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的 学 习作 为 严肃 游戏 的 一 个 分 支 目 的 在 于 让 人 们 
从 游戏 中 习 得 知识 和 行为 (Gee，2008)。 早 期 基于 
游戏 的 测评 大 多 以 评估 特定 的 学 习 结果 和 技能 》 
出 发 点 ,在 游戏 环境 中 开发 测评 模型 (Mislevy 
et al., 2012)。 随 着 基于 游戏 的 测评 深入 发 展 , 研究 
者 开始 将 游戏 与 能 力 特征 联系 起 来 ,让 游戏 提供 
个 体 如 何 思考 和 行动 的 线索 。 

Heinzen 等 人 (2015) 将 基于 游戏 的 测评 (Game-based 
assessment，GBA) 定 义 为 通过 游戏 或 游戏 化 的 活 
动 ， 对 某 一 对 象 进行 评估 。 从 心理 学 视角 来 说 ， 这 
就 是 指 采用 游戏 的 方式 ， 对 一 个 人 的 能 力 、 人 格 


等 方法 ， 基 于 游戏 的 测评 可 以 通过 设置 场景 给 学 
生 展 现 其 理解 和 应 用 知识 的 机 会 。 此 外 ,基于 游戏 
的 测评 还 可 以 设置 多 个 关卡 ,考察 个 体 在 不 同类 
别 或 不 同 难度 的 情境 下 的 表现 ,形式 更 加 灵活 。 
第 二 ， 从 测评 过 程 来 说 ， 基 于 游戏 的 测评 可 
以 降低 测评 过 程 中 的 焦虑 ， 提 高 参与 度 , 得 到 受 
测 者 更 为 真实 的 情况 。 相 比 于 传统 心理 测评 存在 
测验 焦虑 、 社 会 赞许 性 等 问题 , 已 有 多 项 研究 表 
BA, 受 测 者 认为 基于 游戏 的 测评 方式 更 有 吸引 力 ， 
趣味 性 更 强 (DeRosier & Thomas, 2019; Turan 
Meral, 2018)。 此 外 ， 有 研究 者 将 所 要 考察 的 题 
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Se ty SHURE PE A IT HE AT et (UE (oD EO 
2018)。 根 据 测 评 的 形式 可 以 分 为 外 部 测评 (External 
assessment) Fil AY %8 ll VE (Internal assessment) 两 类 ， 
一 方面 测评 可 以 基于 游戏 之 外 的 证 据 ， 例如 , 个 
体 最 终 的 解决 方案 , 在 口 尖 陈述 或 自我 报告 中 阁 
述 的 理由 等 (Caballero-Hernéndez et al., 2017); 4 
一 方面 测评 可 以 作为 游戏 的 一 部 分 谍 入 游戏 中 ， 
也 称 之 为 隐形 评估 (Stealth assessment)， 即 在 游戏 
中 代入 有 效 的 测验 衡量 个 体 在 游戏 环境 中 的 表现 
(Shute, 2011)。 

基于 游戏 的 测评 与 游戏 化 测评 (Gamification 
in assessment) 的 概念 十 分 相似 ， 都 是 一 种 将 游戏 
机 制 应 用 于 非 游 戏 环 境 的 方式 (Attali & 
Arieli-Attali，2015)， 但 两 者 最 重要 的 区 别 在 于 引 
入 游戏 机 制 的 目的 。 游 戏 化 测评 发 挥 作用 的 前 提 
是 通过 游戏 产生 积极 的 内 部 激励 作用 ， 使 个 体 与 
特定 环境 发 生长 期 互动 ， 提 高 个 体 参 与 度 和 接受 
度 (Nicholson, 2015)， 且 对 个 体 的 测评 表现 产生 积 
极 作 用 ， 因 此 游戏 化 测评 多 用 于 教育 领域 , 目的 
在 于 创造 一 个 有 利 的 环境 。 而 基于 游戏 的 测评 目 
的 在 于 根据 受 测 者 在 游戏 中 的 行为 表现 数据 ， 对 
个 体 的 一 个 或 多 个 特质 进行 测量 与 评价 , 重点 在 
于 实现 评估 的 目的 。 

2.2” 优 缺点 评述 
近年 来 ,基于 游戏 的 测评 之 所 以 能 成 为 一 种 
比较 受 欢迎 的 评 佑 方式， 是 因为 相 比 于 传统 的 心 
理 测评 ,其 在 测评 形式 、 测 评 过 程 和 测评 结果 上 
都 具有 一 定 优势 。 

第 一 ， 从 测评 形式 来 说 ,创设 了 一 个 真实 度 
比较 高 的 环境 ， 可 以 通过 复杂 的 任务 测量 个 体 对 
知识 和 技能 的 应 用 情况 (Shute et al., 2016), 不 同 
于 传统 能 力 测试 采用 再 认 、 回 忆 信 息 或 自我 报告 


脱 入 游戏 对 学 生 进 行 测 试 ， 发 现在 基于 游戏 的 涡 
评 中 , 学 生 的 考试 焦虑 有 所 降低 且 考 试 成 绩 明 显 
更 好 (Mavridis & Tsiatsos, 2017)。 而 且 基 于 游戏 的 
测评 具有 隐蔽 的 特点 ， 受 测 者 无 法 猜测 测验 意图 ， 
可 以 有 效 减 少 测验 作假 。 

第 三 ， 从 测评 结果 来 说 ， 基 于 游戏 的 测评 是 
一 种 动态 连续 的 过 程 ， 可 以 通过 计算 机 过 程 数据 
追踪 技术 得 到 受 测 者 在 游戏 过 程 中 的 表现 情况 ， 而 
传统 心理 测验 只 能 得 到 最 终 的 结果 分 数 。 通 过 与 机 
器 学 习 例 如 贝 叶 斯 网 络 方法 相 结合 可 以 进一步 建立 
动态 变化 的 模型 ， 并 根据 受 测 者 表现 情况 更 新 测试 
结果 , 得 到 更 加 准确 的 数据 (Shute et al., 2016)。 

但 是 ， 基 于 游戏 的 测评 也 不 可 避免 存在 一 些 
缺点 。 对 研究 者 和 使 用 者 来 说 , 在 测评 游戏 的 开 
Be, 测评 数据 的 分 析 和 测评 结果 的 效 度 三 方面 均 
有 不 少 挑战 。 

从 测评 游戏 的 开发 来 说 , 通常 需要 将 游戏 机 
制 、 游 戏 内 容 和 内 容 评 佑 结合 在 一 起 ， 由 研究 人 
员 、 游 戏 设计 师 和 教育 工作 者 等 多 方 参与 ,共同 
制作 一 款 专 门 的 游戏 。 这 种 方式 投入 的 时 间 、 金 
钱 和 人 力 成 本 比较 高 。 早 期 研究 多 基于 现 有 的 一 
些 商 业 化 游戏 开展 ， 比 如 植物 大 战 僵尸 等 ， 然 而 
这 些 游戏 本 身 并 不 是 为 评估 某 种 心理 特质 而 开发 
的 ， 只 能 针对 比较 有 限 的 主题 进行 评估 ， 内 容 不 
准确 和 不 完整 。 也 有 研究 者 尝试 设计 通用 性 的 游 
戏 框架 ,将 内 容 与 游戏 机 制 分 离 ， 开发 特定 主题 的 
游戏 , 降低 游戏 开发 的 门槛 , 但 仍 存在 一 些 其 他 问 
题 ， 比 如 心 流体 验 中 断 、 练 习 效 应 等 (Baron, 2017)。 

从 测评 数据 的 分 析 来 说 , 通过 基于 游戏 的 测 
评 将 收集 到 大 量 过 程 数 据 ， 比 如 鼠标 点 击 次 数 、 
反应 时 间 等 ， 一 方面 这 些 数据 的 记录 、 处 理 与 分 
析 远 比 传统 心理 测验 得 到 的 数据 复杂 ， 这 对 研究 
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者 的 数据 分 析 能 力 提 出 了 较 高 要 求 ; 另 一 方面 
基于 游戏 的 测评 关键 在 于 建立 过 程 数 据 与 所 测 特 
质 结构 的 关系 ， 如 何在 众多 数据 中 确立 并 验证 数 
据 指 标 与 所 测 特质 的 因果 关系 对 研究 者 来 说 具有 
较 大 困难 (Kim & Ifenthaler, 2019)。 

从 测评 结果 的 效 度 来 说 ， 基 于 游戏 的 测评 也 
存在 与 传统 心理 测验 一 样 的 问题 。 有 研究 者 指出 ， 
基于 游戏 的 测评 的 结果 并 不 能 完全 等 于 受 测 者 所 
测 特质 的 实际 水 平 ， 即 使 游戏 中 的 任务 反映 了 所 
测 特质 的 关键 要 素 , 受 测 者 如 何在 游戏 中 扮演 自 
己 的 角色 并 做 出 一 系列 行为 ,只 是 他 们 在 实际 生 
活 中 的 近似 表现 (StANescu et al., 2020)。 而 且 游 戏 
过 程 中 界面 的 颜色 、 和 角色 的 造型 、 游 戏 的 音效 等 
环境 要 素 ， 以 及 受 测 者 先前 的 游戏 经 验 等 个 体 要 
素 都 有 可 能 影响 测评 结果 。 

总 而 言 之 , 基于 游戏 的 测评 方法 存在 部 分 不 
足 之 处 ,但 组 庸 置疑 的 是 ， 基 于 游戏 的 测评 更 具 
有 独特 的 优势 ， 使 用 游戏 作为 评估 工具 是 一 种 日 
渐 重 要 的 方法 并 具有 越 来 越 高 的 价值 。 


3 测评 范式 


3.1 证 据 中 心 设计 
建立 科学 有 效 的 测评 工具 是 测量 个 体 心 理 特 
性 的 前 提 和 基础 ， 因 此 在 有 关 基 于 游戏 的 测评 的 
研究 中 , 测评 工具 的 建立 和 检验 是 学 者 关注 的 焦 
点 之 一 , 证 据 中 心 设计 为 其 提供 了 理论 基础 ， 并 
进一步 形成 了 建立 测评 工具 的 范式 。 

Mislevy 等 人 最 先 在 2003 年 针对 教育 评估 领 
域 提出 概念 评估 框架 (Conceptual assessment 
framework) 一 个 用 于 建立 评估 的 通用 模型 ， 
由 学 生 模 型 、 证 据 模 型 、 任 务 模型 、 组 合 模型 以 
及 呈现 模型 5 个 部 分 组 成 (Mislevy,，Almond, & 
Lukas, 2003; Mislevy, Steinberg, & Almond, 2003), 
且 包 含 框架 实施 的 4 个 过 程 ， 分 别 为 呈现 过 程 、 
向 应 过 程 、 计 分 过 程 和 任务 选择 过 程 。 概 念 评估 
框架 和 4 个 过 程 被 统称 为 证 据 中 心 设计 (Evidence- 
centered design, ECD), 这 是 一 个 更 广泛 的 测量 模 
型 ， 以 支持 现代 化 教育 评估 。 证 据 中 心 设计 同样 
适用 于 开发 游戏 测评 工具 , Shute 在 2011 年 将 其 概 
括 为 3 个 最 核心 的 组 成 成 分 ， 分 别 为 能 力 模型 、 
任务 模型 和 证 据 模型 。 
3.2 ”测评 工具 建立 

第 一 ,定义 测量 的 特质 结构 ， 即 建立 能 力 模 


型 。 能 力 模 型 的 建构 需要 研究 者 根据 研究 问题 确 
定 目 标 特质 ,也 就 是 期 望 测量 的 知识 、 技 能 或 者 
fe. BE, 并 根据 已 有 理论 框架 定义 目标 特质 
的 属性 及 特征 。 此 模型 可 以 是 简单 模型 ,通过 任 
务 的 完成 情况 考察 某 一 特质 ,也 可 以 是 复杂 模型 ， 
在 一 个 游戏 中 综合 考察 个 体 的 几 种 特质 ( 孙 海 洋 ， 
2011)。 

第 二 ， 确 定 反映 目标 特质 的 指标 及 计 分 规则 ， 
即 建立 证 据 模 型 。 证 据 模 型 是 能 力 模型 和 任务 模 
型 的 桥梁 , 将 可 观察 值 汇总 并 建立 预测 模型 从 而 
推断 目标 特质 。 这 也 是 证 据 中 心 设计 框架 最 核心 
的 组 成 成 分 可 分 为 统计 规则 和 统计 模型 两 个 部 
分 (Shute, 2011)。 统 计 规 则 的 构建 在 于 选择 游戏 中 
与 能 力 模型 相 联 系 的 指标 ， 并 设 定 受 测 者 游戏 表 
现 的 得 分 或 者 得 分 比率 等 评分 规则 ， 以 此 得 到 可 
观察 且 可 量化 的 结果 。 由 于 游戏 的 多 样 性 ,不 同 
的 游戏 有 不 同 的 数据 指标 ， 即 使 是 相同 的 游戏 根 
据 不 同 的 能 力 模 型 也 可 能 存在 不 同 的 数据 指标 
( 温 迎 等 , 2019)。 通常 来 说 ， 指 标的 选择 与 确立 主 
要 依赖 于 相关 领域 的 研究 基础 及 研究 者 的 经 验 与 
专业 知识 而 无 统一 标准 ， 其 中 任务 完成 时 间 、 关 
卡 完成 数量 、 正 确 率 等 是 较为 常见 的 数据 指标 。 
此 外 , Nebel 和 Ninaus (2019) 提 出 , 借助 生理 数据 
可 以 对 玩家 的 情绪 和 认 知 状态 有 更 深入 的 了 解 
因此 未 来 研究 中 可 以 考虑 同时 采集 相关 生理 数据 
作为 测评 指标 。 

统计 模型 的 构建 在 于 定义 可 观察 的 指标 和 能 
力 模 型 之 间 的 关系 ( 汉 深 典 , 2012),， 这 种 关系 可 能 
是 逻辑 性 的 ， 也 可 能 是 概率 性 的 ,一 方面 , 研究 者 
可 以 基于 简单 的 计算 规则 将 所 选 指标 的 结果 得 分 
汇总 ,直接 代表 目标 特质 的 水 平 ; 另 一 方面 ， 研 
究 者 可 以 借助 贝 叶 斯 网 络 、 随 机 森林 等 算法 ,， 通 
过 所 选 指标 的 结果 构建 数学 模型 预测 目标 特质 的 
水 平 。 统 计 模型 的 选择 与 目标 特质 、 游 戏 任务 、 
指标 数量 等 因素 均 有 关联 。 

一 般 而 言 ， 逻 辑 性 的 模型 较为 简单 ， 
Vendlinksi 和 Stevens 在 2002 年 设计 了 一 款 游戏 来 
评估 高 一 学 生 的 化 学 知识 水 平 ， 要 求 受 测 者 在 23 
个 不 同 的 情境 中 识别 出 指定 化 学 品 ， 受 测 者 可 以 
在 游戏 中 通过 实验 、 查 阅 书 籍 等 多 种 方式 辅助 判 
断 ， 每 种 情境 计 1 分 ， 得 分 越 高 说 明 化 学 知识 水 
平 越 高 。DeRosier 等 人 (2012) 对 儿童 在 虚拟 社交 
情境 中 做 出 的 行为 选择 赋 分 并 计算 总 分 ,评估 儿 
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童 的 社会 情绪 能 力 。 

而 概率 性 的 模型 更 加 复杂 , Shute 等 人 在 借助 
植物 大 战 僵尸 (Use Your Brain) 游 戏 预测 个 体 问题 
解决 能 力 (Problem Solving Skills) 的 研究 中 ,按照 
某 一 种 行为 占 此 类 行为 的 比例 区 间 划 分 等 级 作为 
一 项 数据 指标 ， 并 建立 等 级 与 所 测 特质 水 平 的 概 
率 关 系 ， 比 如 受 测 者 在 某 一 项 数据 指标 上 的 表现 
是 好 时 ， 其 在 目标 特质 上 表现 水 平 是 好 的 概率 为 
0.5。 结 合 众 多 数据 指标 的 表现 可 依据 概率 公式 预 
测 个 体 问 题解 决 能 力 水 平 。 目 前 尚未 有 研究 结论 
表明 统计 模型 的 类 型 对 测评 结果 存在 显著 影响 ， 
研究 者 可 以 根据 研究 目的 选择 合适 的 统计 模型 。 

第 三 , 设计 任务 或 情境 从 中 获得 指标 ， 即 建 
立 任务 模型 。 在 基于 游戏 的 测评 中 , 游戏 即 是 评 
估 的 任务 ,主要 目的 在 于 引出 受 测 者 能 力 的 证 据 ， 
需要 定义 呈现 方式 、 游 戏 任 务 特征 、 游 戏 任务 的 
难度 和 数量 、 完 成 游戏 任务 的 可 行 策略 和 测试 行 
为 的 目标 水 平等 (Rupp et al., 2010)。 有 研究 者 指出 
不 同类 型 的 游戏 涉及 不 同 的 技能 ， 可 以 将 电子 游 
戏 分 成 策略 类 、 冒 险 类 、 角 色 扮 演 类 、 动 作 类 、 
模拟 类 和 其 他 (Dickey, 2006)。 其 中 策略 类 游戏 涉 
及 认 知 能 力 、 决 策 能 力 和 战略 思维 , 模拟 类 游戏 
与 问题 解决 能 力 、 自 我 意识 以 及 观点 采 择 相关 ， 
角色 扮演 类 游戏 则 需要 想象 、 合 作 与 计划 等 特质 
的 参与 (DeRosier & Thomas, 2018b), 选择 游戏 作 
为 测量 工具 时 首先 需要 考虑 目标 特质 与 游戏 功能 
的 匹配 程度 。 在 研究 过 程 中 , 研究 者 可 以 基于 现 
有 游戏 提炼 有 预测 作用 的 指标 进行 评估 ， 也 可 以 
根据 研究 目的 设计 新 游戏 。 

利用 证 据 中 心 设 计 建立 目标 特质 的 测评 工具 
为 进一步 进行 数据 采集 、 处 理 与 信 效 度 检 验 提 供 
了 必要 条 件 ( 见 图 1)。 
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图 1 基于 证 据 中 心 设计 建立 测评 工具 的 思路 框架 


3.3 fa ME 

基于 游戏 的 测评 作为 一 种 较为 新 新 的 测量 技 
术 ， 信 效 度 的 检验 更 为 重要 ,但 是 目前 相关 研究 
数量 少 。 在 当前 研究 中 ,游戏 测评 工具 的 检验 方 
法 与 传统 心理 测验 的 检验 方法 类 似 ， 有 具体 分 为 信 
度 检验 和 效 度 检 验 。 

信和 度 ， 即 可 靠 性 (Reliability)， 信 和 度 系 数 高 即 
表示 该 测评 工具 的 结果 更 一 致 、 稳 定 与 可 靠 。 通 
常 通过 计算 克隆 巴赫 (Cronbach's alpha) 系 数 和 组 
内 相关 系数 (Intraclass correlation coefficient) 对 测 
评 工 具 的 内 部 一 致 性 信和 度 进 行 检 验 (Shute & 
Moore, 2017)。 

以 Kim 等 人 在 2016 年 设计 的 “物理 游乐 场 
(Physics playground)” 为 例 ， 该 游戏 共 使 用 74 个 关 
卡 来 评估 玩家 对 牛顿 三 定律 的 理解 ， 通 过 控制 
幕 上 的 工具 ， 比 如 杠杆 、 和 斜面 等 使 小 球 移 动 到 
标 位 置 ， 略 玩 家 出 现 使 用 和 斜坡、 杠杆 、 钟 摆 或 跳 
板 完 成 移动 目标 的 行为 , 则 视 为 其 表现 优秀 。 研 
究 者 计算 了 表现 优秀 的 数据 的 内 部 相关 性 (r = 
0.85) 并 选择 了 完成 度 较 高 的 29 个 关卡 进行 a 系数 
的 检验 (a = 0.87)。 此 外 , 研究 者 还 对 表现 优秀 数据 
的 4 个 结构 维度 进行 验证 性 因子 分 析 ， 得 到 单个 
维度 测量 误差 小 ,内 部 一 致 性 信和 度 高 。 这 些 结果 在 
一 定 程 度 上 说 明 物 理 游乐 场 游戏 的 信 度 理想 。 

效 度 ， 即 有 效 性 (Validity), 效 度 高 即 表示 该 
测评 工具 能 更 准确 的 测 出 所 要 测量 的 特质 。 通 党 
借助 外 部 测量 工具 对 聚合 效 度 和 区 分 效 度 两 者 进 
行 检验 (Rupp et al., 2010)。 此 外 , 效 标 关联 效 度 也 
是 研究 者 会 关注 的 对 象 之 一 ， 它 反映 了 游戏 预测 
个 体 在 某 种 情境 下 行为 表现 的 有 效 性 程度 。 

以 Weiner 在 2019 年 设计 的 VR 游戏 为 例 , 受 
测 者 使 用 一 个 头 戴 控制 器 和 两 个 手持 控制 器 来 完 
成 3 款 VR 游 戏 以 测量 个 体 的 认 知 能 力 , 包括 视觉 
速度 与 准确 性 、 空 间 想象 和 视觉 追踪 能 力 。 测 试 
结束 后 ， 受 测 者 需要 完成 职业 能 力 倾向 测验 
(Employee aptitude survey, EAS) 中 测量 这 三 种 能 
力 的 分 测验 和 大 五 人 格 测验 ， 此 外 研究 者 还 获取 
了 受 测 者 的 学 业 成 绩 (GPA)。 将 VR 测试 得 分 分 别 
与 外 部 测验 得 分 和 学 业 成 绩 建 立 相 关 关 系 和 回归 
方程 ,结果 表明 这 些 测验 结果 之 间 存 在 两 两 相关 
AL VR 测试 得 分 可 以 为 学 业 成 绩 提供 有 意义 的 预 
测 。 聚 合 效 度 、 区 分 效 度 及 效 标 关 联 效 度 的 结果 
在 一 定 程 度 上 说 明 VR 游戏 的 效 度 良 好 。 
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4 测评 实践 


在 测评 范式 的 指导 下 , 研究 者 建立 了 多 种 游 
戏 测评 工具 对 个 体能 力 与 行为 开展 评估 实践 。 认 
知 能 力 和 非 认 知 能 力作 为 能 力 的 一 体 两 面 ， 对 个 
人 发 展 至 关 重 要 ( 李 丽 ， 赵 文 龙 , 2017)， 因 此 常常 
成 为 心理 测验 测评 的 对 象 。 目 前 ， 基 于 游戏 的 测 
评 被 广泛 应 用 于 个 体 认 知 能 力 的 评估 (de Klerk 
etal., 2015), 并 且 在 预测 非 认 知 能 力 方面 也 有 独 
特 的 优势 。 

4.1 认 知 能 力 的 测评 

认 知 能 力 是 个 体 在 重 构 和 应 用 知识 时 所 需要 
的 能 力 ,涉及 知觉 、 记 忆 和 注意 等 基本 认 知 能 
以 及 推理 判断 、 想 象 和 问题 解决 等 高 级 认 知 能 
基于 游戏 的 测评 方法 为 认 知 能 力 的 评估 提供 了 新 
思路 ,在 认 知 能 力 评价 和 认 知 能 力 诊断 方面 均 有 
一 定 应 用 。 

孙 舍 等 人 (2018) 通 过 推 箱子 游戏 预测 个 体 的 
推理 能 力 (Reasoning ability) MAC Mat, 提取 第 

步 用 时 占 比 、 完 成 箱子 的 比例 、 思 考 步 数 占 比 、 
重复 步 数 占 比 、 与 最 优 路 径 相 差 步 数 等 23 个 特征 
建立 随机 森林 模型 ， 并 通过 计算 精确 率 、 查 准 率 
和 查 全 率 等 指标 验证 模型 的 预测 效果 。 Shute 等 人 
(2016) 借 助 植物 大 战 僵尸 (Use Your Brain) 游 戏 预 
测 个 体 问题 解决 能 力 (Problem solving skills), 包 
括 分 析 条 件 和 限制 、 制 定 解决 办 法 、 有 效 利用 资 
源 和 工具 、 监 控 和 调整 进程 4 个 维度 。 根 据 受 测 
者 抵挡 僵尸 的 操作 ， 例 如 “在 超过 五 个 僵尸 时 使 
用 能 量 豆 ”被 认为 是 有 效 利用 资源 和 工具 的 表现 ， 
将 目标 行为 /总 行为 转化 为 频率 后 共 提 取 32 个 特 
征 建 立 贝 叶 斯 网 络 模型 ， 预 测 模型 得 到 的 结果 与 
瑞 文 推理 测验 和 模拟 投篮 任务 的 得 分 均 存 在 显著 相 
关 。 个 体 的 论证 推理 能 力 (Argumentative reasoning) 
也 是 一 种 重要 的 认 知 能 力 , 研究 者 使 用 海上 学 期 
(Seaball—Semester at sea) 游 戏 要 求 儿 童 回答 出 现 
的 食物 是 否 属于 垃圾 食品 等 问题 并 在 多 个 选项 中 
选择 理由 ,最 后 对 48 个 题目 的 正确 选项 进行 计 分 
得 到 游戏 总 分 (Song & Sparks, 2019)， 游 戏 得 分 越 
高 说 明 个 体 的 论证 推理 能 力 越 强 。 学 生 在 游戏 评 
估 中 的 得 分 与 CBAL 认 知 学 习 能 力 测验 (Cognitively 
based assessment of, for, and as learning) 得 分 呈 中 等 
程度 相关 ， 说 明了 游戏 的 区 分 效 度 和 聚合 效 度 ; 
与 教师 报告 的 学 生成 绩 和 其 议论 文 写作 能 力 上 的 


Sot 


PERE th SE PS, 说 明了 游戏 的 效 标 关联 
效 度 。 

除了 对 一 般 人 群 的 认 知 能 力 进 行 评估 外 ， 基 
于 游戏 的 测评 也 被 用 于 对 认 知 障碍 人 群 的 认 知 诊 
Wr. Manera 等 人 (2015) 采 用 “厨房 与 襄 饪 ”的 游戏 
任务 评估 和 患 有 轻 度 认 知 障碍 和 阿尔 菊 海 默 病 的 老 
人 ,要求 受 测 者 点 击 屏 幕 制作 菜肴 。 该 游戏 分 为 
区 分 原材料 、 计 划 制 作 工序 、 实 际 操作 三 个 过 程 
涉及 感知 能 力 、 计 划 能 力 和 实践 能 力 , 最 后 将 完 
成 时 间 与 表现 错误 次 数 作为 判断 指标 , 受 测 者 游 
戏 表 现 与 整体 认 知 功能 、 注 意 力 与 思维 、 执 行 功 
能 和 记忆 能 力 测验 的 结果 均 呈 显著 相关 ,验证 了 
游戏 效 度 。Flynn 等 人 (2019) 对 一 个 认 知 障碍 夏令 
营 的 孩子 进行 施 测 和 监控 ,由 一 组 游戏 任务 组 成 
可 以 重复 测评 的 认 知 检测 工具 ， 分 为 感知 区 分 任 
务 (在 屏幕 上 点 击 正确 的 目标 ) 和 导航 任务 (通过 倾 
斜 iPad 来 引导 模拟 角色 绕 过 障碍 物 ), 借助 自 适 应 
算法 工具 自动 记录 完成 单 任务 和 多 任务 时 的 个 体 
情况 ， 共 收集 20 项 反应 指标 。 通 过 个 体 随时 间 推 
移 的 数据 结果 ， 可 以 在 改善 认 知 神经 障碍 的 治疗 
过 程 中 进行 更 加 全 面 和 准确 的 评估 。 
4.2” 非 认 知 能 力 的 测评 

由 于 反映 社会 特征 及 人 格 特质 的 非 认 知 能 
较 难 测量 ， 对 其 关注 的 时 间 相 对 滞后 ,但 随 着 非 
认 知 能 力 在 个 体 发 展 中 的 重要 性 逐渐 展现 ， 近 年 
来 ,基于 游戏 的 测评 在 非 认 知 能 力 测评 中 的 作用 
也 受到 了 关注 。 

研究 者 使 用 “参观 动物 园 (Zoo U)” 这 一 游戏 评 
佑 儿童 的 社会 情绪 能 力 ， 游戏 过 程 中 儿童 在 类 似 
于 学 校 的 故事 世界 中 与 虚拟 角色 互动 来 完成 6 个 
虚拟 社交 场景 中 呈现 的 情境 选择 问题 ， 以 此 评估 
个 体 在 交流 、 合 作 、 同 理 心 、 情 绪 调 节 、 冲 动 控 
制 和 社会 活动 6 个 方面 的 能 力 ， 结果 表明 6 个 维 
度 的 得 分 均 呈 正 相 关 。 此 外 研究 者 获得 了 受 测 学 
生 由 教师 报告 的 社交 技能 和 行为 量 表 得 分 、 纪 律 
处 分 和 学 业 适 应 情况 ,游戏 得 分 更 低 的 儿童 表现 
出 更 多 社交 、 行 为 和 学 业 上 的 问题 (DeRosier et al., 
2012; DeRosier & Thomas, 2018a)。 此 外 ,对 个 体 团 
队 合 作 能 力 (Guenaga et al.，2015) 和 个 人 合作 行为 
(Keil et al., 2017) 的 评估 也 可 以 借助 游戏 实现 。 

人 格 特质 的 测量 也 受到 了 学 者 的 重视 。van 
Nimwegen 等 人 (2011) 与 一 家 游戏 工作 室 和 一 家 人 
力 资源 咨询 公司 合作 开发 了 一 款 游戏 用 于 测评 个 
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体 的 依从 性 ， 受 测 者 模拟 自己 在 一 个 公司 环境 中 
对 发 生 的 事情 做 决定 和 表达 意见 ， 故 事 中 受 测 者 
选择 的 行动 实际 上 代表 李 克 特 4 点 量 表 的 分 数 。 
Poptropica 岛屿 任务 游戏 可 以 预测 个 体 的 坚持 性 
特质 (DiCerbo，2014)， 研 究 者 选择 一 次 通过 率 低 
于 10% 的 岛屿 关卡 作为 困难 关卡 ， 在 任务 事件 上 
花费 的 时 间 以 及 完成 任务 的 次 数 作为 坚持 性 的 评 
佑 指标， 并 将 游戏 中 三 个 岛屿 任务 的 两 项 评估 指 
标 建立 验证 性 因素 分 析 模型 进行 检验 ， 得 到 各 项 
拟 合 指数 良好 。 目 前 心理 学 领域 中 较 成 熟 的 实验 
范式 最 后 通 册 游戏 (The ultimatum game) 可 以 
用 于 评估 个 体 利他 性 特质 ,独裁 者 博弈 游戏 
(Dictator game) 则 可 以 测量 个 体 的 公平 性 特质 
(Baumert et al., 2014), 通过 游戏 中 行为 的 表现 情 
况 ， 还 可 以 评估 个 体 主动 性 攻击 和 反应 性 攻击 特 
质 (McCreery et al., 2019)。 

但 在 人 格 特质 领域 , 也 有 学 者 得 到 了 不 同 的 
结论 ,Dalveren 等 人 (2015) 借 助 外 科 病 房 导 航 游戏 
测试 受 测 者 的 人 格 特质 ,在 游戏 中 受 测 者 需要 根 
据 地 图 达到 10 个 不 同 的 目标 地 点 。 参照 荣 格 的 人 
格 类 型 (Myers-Briggs type indicator, MBTI), 选择 
反应 时 间 、 行 走 的 距离 、 走 到 错误 道路 的 次 数 、 撞 
墙 的 次 数 以 及 任务 成 功率 等 作为 游戏 行为 指标 ， 
但 是 研究 者 分 析 了 这 些 人 格 类 型 与 玩家 在 游戏 过 
程 中 的 个 人 表现 的 相关 关系 ， 发 现 游戏 参数 与 玩 
家 的 性 格 类 型 之 间 没 有 显著 的 相关 性 ， 这 对 基于 游 
戏 的 测评 是 否 能 有 效 预测 人 格 特质 提出 了 挑战 。 


5 未 来 研究 展望 


综 上 所 述 ， 本文 对 基于 游戏 的 测评 的 概念 、 
tisk RT MORIN A ， 不 仅 对 理解 基 
于 游戏 的 测评 这 新 兴 技术 具有 重要 价值 而 且 
对 后 续 研究 的 开展 也 具有 重要 指导 意义 。 但 目前 
基于 游戏 的 测评 的 研究 仍 处 于 初始 阶段 ， 未 来 学 
者 可 以 从 测评 的 任务 设计 、 测 评 的 数据 分 析 和 测 
评 的 实践 应 用 三 个 角度 出 发 ， 进 一 步 丰 富 基于 游 
戏 的 测评 的 相关 研究 。 

5.1 测评 的 任务 设计 

早期 研究 多 利用 一 些 现 有 商业 游戏 如 植物 大 
REP, 、 推 箱子 等 (Shute et al., 2016; E 等 ， 
2018)， 探 讨 这 些 游 戏 中 的 表现 与 某 种 心理 特质 的 
关联 ,目前 有 越 来 越 多 的 研究 者 尝试 根据 证 据 中 心 
设计 框架 , 将 游戏 机 制 、 游 戏 内 容 和 内 容 评 估 相 结 


T 


合 , 开发 特定 主题 的 游戏 (Song et al., 2020), 这 样 
在 测评 相应 的 心理 特质 上 更 具有 针对 性 ,内 容 更 
正确 完整 。 一 些 通用 游戏 框架 的 出 现 ， 如 Minecraft, 
也 在 一 定 程度 上 降低 了 游戏 开发 的 门槛 。 

但 目前 大 多 基于 游戏 的 测评 仍 采用 线性 设计 
模式 ， 针 对 不 同 的 受 测 者 呈现 的 游戏 情境 和 内 容 
均一 致 ， 这 会 导致 测评 需要 花费 许多 时 间 且 评估 
内 容 较 为 单一 ， 因 此 有 研究 者 提出 非 线 性 的 游戏 
模式 。 一 方面 表现 为 分 支 设计 ,不同 的 行为 将 带 
来 不 同 的 游戏 情境 。Bacos 等 人 (2018) 在 研究 中 采 
用 一 款 具 有 分 支 故 事情 节 的 互动 叙事 游戏 对 个 体 
的 反 事 实 思维 进行 测量 ,由 此 可 见 ， 分 支 设 计 也 
许可 以 为 更 高 级 的 特质 评估 提供 方向 。 另 一 方面 
表现 为 自 适应 设计 ， 根 据 对 测试 者 能 力 的 估计 ， 
a E 
大 提高 评估 效率 。Wilson 等 人 (2006) 开 发 了 一 
数字 竞赛 (The Number Race) 的 自 适应 ee 
于 纠正 儿童 计算 障碍 , 通过 评估 儿童 的 计算 能 
基线 并 提出 适合 儿童 表现 水 平 的 问题 ,实现 对 儿 
童 计算 能 力 的 训练 。 尽 管 此 游戏 的 主要 目的 在 于 
训练 而 非 评估 ,但 具有 一 定 启示 意义 。 由 于 目前 
基于 游戏 的 测评 领域 中 少 有 研究 者 进行 自 适 应 游 
戏 设计 的 研究 ,未 来 研究 者 可 以 参考 基于 游戏 的 
训练 及 基于 游戏 的 学 习 等 领域 的 相关 研究 进一步 
探索 。 

此 外 ,多 玩家 的 大 型 游戏 设计 也 为 同时 测量 
多 人 及 多 特质 的 实现 提供 了 方向 。Annetta 等 人 
(2010) 开 发 了 一 款 多 玩家 教育 游戏 (Multiplayer 
educational gaming covers MEGA) 以 评估 21 
世纪 数字 时 代 学 生 的 读 写 能 力 、 创 造 性 思维 、 执 
eG a 
动情 况 、 与 同伴 的 讨论 情况 ， 以 及 在 玩 游 戏 时 的 
参与 程度 和 花费 时 间 这 4 类 因素 进行 评价 。 早 期 
研究 对 游戏 行为 的 评价 及 游戏 情境 的 设计 均 比 较 
简单 ， 计 算 机 技术 的 发 展 将 为 非 线性 和 多 人 多 特 
质 的 游戏 模式 设计 带 来 更 多 可 能 性 。 
5.2 ”测评 的 数据 分 析 

早期 研究 多 使 用 结果 数据 ， 目 前 对 过 程 数据 
的 关注 也 逐渐 增多 , 倾向 于 过 程 数据 和 结果 数据 
的 整合 应 用 。de Klerk 等 人 在 2015 年 总 结 了 31 
项 研究 成 果 ， 其 中 有 10 个 研究 使 用 了 游戏 结果 数 
据 ，6 TOR SER, HARM eA 
这 说 明 研 究 者 对 于 过 程 数据 的 利用 率 仍 有 限 。 随 
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着 计算 机 技术 的 发 展 ， 机 器 学 习 在 数据 处 理 方面 
的 巨大 优势 逐渐 显现 ,尤其 是 通过 游戏 的 方式 会 
得 到 数量 庞大 的 数据 ,传统 统计 方法 无 法 最 大 限 
度 提 取 数 据 中 的 信息 (Csap6 et al., 2012), 而 机 器 
学 习 算 法 则 可 以 帮助 研究 者 在 结果 评估 阶段 建立 
更 复杂 的 模型 。 

已 有 不 少 研究 者 引入 贝 叶 斯 网 络 、 决 策 树 、 
随机 森林 等 算法 建立 预测 模型 。 孙 佬 等 人 (2018) 
选择 测验 得 分 前 25% 和 后 25% 的 受 测 者 样本 进行 
特质 提取 与 模型 建立 ， 从 推 箱子 游戏 中 提取 23 个 
特征 指标 作为 分 类 数据 集 的 特征 值 ， 随 机 划分 训 
练 集 和 测试 集 后 对 数据 集 进行 训练 和 分 类 ， 建立 
推 箱子 的 游戏 表现 与 推理 能 力 和 数学 成 绩 的 关 
系 。 未 来 研究 也 可 以 考虑 结合 卷 积 神经 网 络 处 理 
图 像 数 据 ， 让 游戏 数据 提供 更 多 的 信息 ， 以 及 考 
虑 采用 机 器 学 习 的 非 监督 学 习 类 型 ， 探 究 数据 内 
在 分 组 类 型 或 数据 各 部 分 的 规则 ,丰富 测评 结果 
的 分 析 方 法 。 需 要 注意 的 是 ， 尽 管 这 一 处 理 方式 
具有 良好 的 统计 学 意义 , 但 是 机 器 学 习 是 数据 驱 
动 的 建 模 过 程 ,目的 是 最 大 化 预测 准确 性 ， 有 时 
无 法 兼顾 模型 中 特征 本 身 的 意义 和 结构 (Mayer 
etal., 2014), 仅 从 数据 驱动 得 到 的 结论 很 有 可 能 
是 没有 实际 意义 的 ( 匡 性 等 ,2015)， 如 何在 理论 
基础 上 与 机 器 学 习 方 法 相 结合 需要 更 为 深入 的 分 
析 和 研究 。 

5.3 测评 的 实践 应 用 

在 测评 内 容 上 , 早期 基于 游戏 的 测评 主要 应 
用 于 评估 个 体 对 知识 和 技能 的 掌握 程度 。 不 同 于 
采用 试卷 测试 的 方法 , 研究 者 将 考察 点 融入 游戏 ， 
使 受 测 者 在 游戏 过 程 中 展现 其 对 知识 和 技能 的 理 
解 和 应 用 能 力 。 尤 其 是 评估 数学 、 物 理 、 医 疗 急 
救 和 建筑 设计 等 此 类 更 需要 理解 应 用 的 知识 技能 
时 (de Klerk et al., 2015)， 基 于 游戏 的 测评 是 一 种 
有 效 的 工具 选择 。 随 着 基于 游戏 的 测评 的 发 展 ， 
其 在 认 知 能 力 与 非 认 知 能 力 的 评估 研究 中 的 作用 


单 且 数量 较 少 ,未 来 研究 者 可 以 在 这 一 方向 上 进 
行 深入 探索 。 

在 应 用 场景 上 ， 近 年 来 基于 游戏 的 测评 在 临 
床 评估 与 治疗 领域 的 研究 尝试 为 这 一 技术 带 来 了 
新 价值 。Hautala 等 人 (2020) 开 发 了 一 组 在 线 游戏 
任务 用 于 评估 与 筛 查 低 年 级 学 生 的 阅读 障碍 ， 
Song 等 人 (2020) 设 计 了 一 款 叫 “CoCon” 的 手机 游 
戏 用 于 评估 儿童 青少年 群体 的 认 知 功能 并 计划 将 
“Cocon”" 的 使 用 进一步 扩展 到 钥 查 具有 严重 认 知 
控制 问题 的 临床 人 群 。 基 于 游戏 的 测评 因 其 可 以 
建立 自动 评分 系统 、 详 细 记 录 干 预期 间 个 体 水 平 
变化 过 程 以 及 通过 自 适应 算法 自行 调整 任务 难度 
而 在 后 续 治 疗 干预 中 具有 和 较 高 应 用 价值 。2020 年 
6 月 , 美国 食品 药品 监督 管理 局 批准 了 一 款 名 为 
EndaevorRx 的 游戏 作为 患 有 儿童 多 动 症 孩 子 的 处 
方药 ,也 反映 出 这 一 领域 在 实践 应 用 中 的 巨大 洪 
力 ， 如 何 将 理论 与 实践 相 结合 使 基于 游戏 的 测评 
发 挥 更 大 功能 需要 研究 者 不 懈 努 力 。 

在 具体 应 用 中 , 研究 者 也 越 来 越 关 注 一 些 细 
节 问 题 ， 比 如 测评 指标 选择 等 。DiCerbo (2014) 在 
通过 Poptropica 岛屿 任务 游戏 预测 个 体 坚 持 性 的 
研究 中 ,预先 选择 了 4 个 行为 作为 测评 指标 , 但 
通过 小 样本 测验 得 到 这 4 个 指标 的 关系 不 稳定 且 
效 度 较 低 ， 因 此 最 终 选 取 了 花费 在 任务 事件 上 的 
时 间 、 完 成 任务 事件 的 次 数 两 个 数据 结果 作为 测 
评 指标 。 过 于 简单 地 使 用 两 个 指标 代表 个 体 坚 持 
性 的 方式 会 使 这 一 游戏 的 评估 效 度 令 人 怀疑 ， 因 
此 在 设计 证 据 模 型 时 ， 需 要 预先 设 定 适 当 数 量 的 
行为 纳入 评估 指标 ， 并 仔细 定义 行为 , 证 据 和 结 
构 之 间 的 联系 。 有 研究 者 指出 行为 的 指标 有 时 无 
法 在 证 据 模 型 设计 初 就 确定 (DiCerbo，2017)， 可 
以 采用 迭代 的 方式 进行 识别 ， 从 受 测 者 完成 任务 
的 过 程 中 对 日 志文 件 中 哪些 元 素 可 以 构成 证 据 的 
假设 进行 发 展 和 证 实 。 也 有 研究 者 关注 先前 有 关 
游戏 测评 的 默认 假设 ， 如 游戏 对 测评 动机 和 参与 


A 


也 受到 了 广泛 关注 。 基 于 游戏 的 测评 可 以 在 一 定 
程度 上 避免 传统 心理 测评 中 存在 的 易 受 社会 赞许 
性 影响 、 无 过 程 数 据 等 缺点 而 受到 研究 者 青睐 
越 来 越 多 研究 者 开始 借助 游戏 对 个 体 的 心理 特质 
进行 评估 与 研究 , 不 少 企业 也 自行 设计 游戏 用 于 
人 才 招 聘 ， 以 判断 应 聘 者 的 能 力 及 个 性 。 但 如 何 
选择 游戏 任务 中 的 数据 指标 代表 个 体 的 人 格 特征 
难度 较 高 ,， 因此 目前 对 非 认 知 能 力 的 实践 较为 简 


度 的 促进 ， 对 考试 焦虑 和 学 业 成 绩 的 影响 等 
(Verma et al., 2019)。 

此 外 ， 因 受 测 者 个 体 差异 带 来 的 测评 结果 误 
差 也 引起 了 研究 者 的 关注 。 与 女性 相 比 ， 男 性 更 
频繁 且 持 续 的 玩 各 种 类 型 的 游戏 ,更 熟悉 常见 的 
游戏 模式 、 规 则 等 ， 这 可 能 会 帮助 他 们 在 游戏 中 
表现 更 好 。 研 究 者 兽 测量 不 同 的 个 体 差异 ， 例 如 
性 别 、 愉 悦 感 、 游 戏 效能 感 以 及 游戏 时 间 等 对 测 
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评 得 分 的 影响 ,但 未 得 出 统一 结论 (Sanchez & 
Langer, 2020), Kim 和 Shute 在 2015 年 的 研究 中 
比较 了 男性 与 女性 、 经 验 丰 富 和 经 验 较 少 或 无 的 
游戏 玩家 之 间 的 结果 差异 ， 得 到 具有 游戏 经 验 的 
玩家 在 部 分 指标 上 的 优势 更 大 ,男性 的 游戏 完成 
率 更 高 且 男 性 与 女性 在 两 个 重点 指标 的 结果 上 存 
在 明显 性 别 差 异 。 这 些 优 势 程 度 可 能 表现 于 某 几 
个 游戏 指标 上 ， 可 以 通过 测试 进行 发 现 与 调整 优 
化 。 基 于 游戏 的 测评 工具 需 最 大 程度 地 降低 玩家 
个 体 差 异 的 影响 以 准确 衡量 受 测 者 的 能 力 ， 必 要 
时 可 以 提供 充分 的 学 习 机 会 以 缩小 游戏 背景 带 3 
的 差异 ,Oranje 等 人 (2019) 则 提醒 在 基于 游戏 的 测 
评 中 还 需要 关注 游戏 以 及 玩家 的 文化 环境 。 将 一 
项 在 某 一 文化 中 设计 和 验证 的 游戏 应 用 于 男 一 文 
化 下 的 群体 时 ， 应 采取 与 传统 测评 类 似 的 评估 方 
式 , 确保 其 具有 跨 文化 的 测量 恒 等 性 。 


6 结论 


基于 游戏 的 心理 测评 虽然 还 处 于 起 步 阶 段 ， 
在 国内 的 相关 研究 也 非常 少 , 但 可 以 预见 的 是 ， 
基于 游戏 的 测评 在 心理 测量 领域 具有 巨大 的 洪 
力 。 以 证 据 中 心 设计 为 核心 的 研究 范式 为 测评 工 
具 的 建立 提供 了 指导 ,基于 该 范式 在 认 知 能 力 和 
非 认 知 能 力 方 面 的 研究 实践 也 验证 了 基于 游戏 的 
测评 这 一 技术 的 有 效 性 。 随 着 计算 机 技术 与 游戏 
技术 的 不 断 进 步 ， 未 来 基于 游戏 的 测评 有 望 在 教 
育 评价 、 心 理 测量 和 人 力 资 源 管理 等 多 个 领域 发 
挥 重要 作用 。 
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Game-based psychological assessment 


XU Junyi, LI Zhongquan 


(Department of Psychology, School of Social and Behavioral Sciences, Nanjing University, Nanjing 210023, China) 


Abstract: Game-Based Psychological Assessment (GBPA) refers to the evaluation of a person's ability, 


personality, and other psychological characteristics through games or gamified activities. In the early days, 


it was mainly used to evaluate the effectiveness of education and training, and later extended to assessing 


psychological characteristics. As a new technology, game-based assessment has advantages in terms of form, 


process and outcome. Currently, a paradigm based on evidence-centered design has been developed in 


game-based assessment to design instruments and to conduct empirical studies. This paradigm has been 


applied to assessing individual differences in cognitive and non-cognitive abilities. However, this technique 


is still in its infancy. Future research can be further expanded in task design, data mining, and practical 


application. 


Key words: game-based assessment, evidence-centered design, cognitive ability, non-cognitive ability 


